Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)

您所在的位置:网站首页 panda pandas Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)

Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)

#Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)| 来源: 网络整理| 查看: 265

1.单列运算

在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作:

df['col2'] = df['col1'].map(lambda x: x**2)

其中lambda函数中的x代表当前元素。可以使用另外的函数来代替lambda函数,例如:

define square(x): return (x ** 2) df['col2'] = df['col1'].map(square)

2.多列运算

apply()会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。

要对DataFrame的多个列同时进行运算,可以使用apply,例如col3 = col1 + 2 * col2:

df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)

其中x带表当前行,可以通过下标进行索引。

示例2

In [44]: f = lambda x : x.max()-x.min() In [45]: df.apply(f) Out[45]: data1 5.042275 data2 1.967290 dtype: float64 In [46]: df.apply(f,axis=1) Out[46]: 0 2.810074 1 1.009774 2 0.537183 3 0.813714 4 1.750022 dtype: float64

applymap()

用DataFrame的applymap方法,可以将函数应用到元素级的数据上。

In [47]: f = lambda x : x+1 In [48]: df.applymap(f) Out[48]: data1 data2 0 -1.332263 1.477812 1 0.284755 1.294528 2 0.066644 0.603827 3 1.757402 2.571117 4 3.710012 1.959990

Series也有一个元素级函数应用的方法map

In [49]: df['data1'] Out[49]: 0 -2.332263 1 -0.715245 2 -0.933356 3 0.757402 4 2.710012 Name: data1, dtype: float64 In [50]: df['data1'].map(f) Out[50]: 0 -1.332263 1 0.284755 2 0.066644 3 1.757402 4 3.710012 Name: data1, dtype: float64

3.分组运算

可以结合groupby与transform来方便地实现类似SQL中的聚合运算的操作:

df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())

在transform函数中x.sum()与x.count()与SQL类似,计算的是当前group中的和与数量,还可以将transform的结果作为一个一个映射来使用, 例如:

sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count()) df['col1'].map(sumcount)

对col1进行一个map,得到对应的col2的运算值。

4.聚合函数

结合groupby与agg实现SQL中的分组聚合运算操作,需要使用相应的聚合函数:

df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})

上述代码生成了col1_mean, col1_sum与col2_count列。

示例2

In [52]: df.agg(['mean','sum']) Out[52]: data1 data2 mean -0.102690 0.581455 sum -0.513449 2.907274

函数

说明

count

分组中非Nan值的数量

sum

非Nan值的和

mean

非Nan值的平均值

median

非Nan值的算术中间数

std,var

标准差、方差

min,max

非Nan值的最小值和最大值

prob

非Nan值的积

first,last

第一个和最后一个非Nan值

到此这篇关于Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)的文章就介绍到这了,更多相关Pandas map apply transform agg内容请搜索ZaLou.Cn以前的文章或继续浏览下面的相关文章希望大家以后多多支持ZaLou.Cn!



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3